Тысяча и один бэкап 


Резервное копирование > 
Compute Cloud 77 
Артемий Капитула „БИ а 

Mail.Ru Cloud Solutions + -- 


++ Е” i 
Ней! сас++ р Е 
(ні) Весна 2021 Е : 


А нужно ли резервное копирование 


Резервирование - защита от отказа 


Резервное копирование - защита от ошибок 


(ні) Ной оаа ” 


Резервное копирование 


Стадии процесса и нагружаемые компоненты 


Прочесть - диск и сеть 


(ні) Ной оаа ” 


Резервное копирование 


Стадии процесса и нагружаемые компоненты 


Прочесть - диск и сеть 


Обработать и сжать - процессор и память 


(ні) Ной оаа ” 


Резервное копирование 


Стадии процесса и нагружаемые компоненты 


Прочесть - диск и сеть 


Обработать и сжать - процессор и память 


Записать - диск и сеть 


(ні) Ной оаа ” 


Клиенты Compute Cloud 


Cloud-native / cloud-ready 


Stateless или state BO внешнем 
сервисе 


Используют резервирование и 
масштабирование 


Используют PaaS 


Сіаз5іс/ едасу 


Предполагают непрерывность 
вычислительного ресурса 


Сохраняют <їаїе внутри ММ 
Нуждаются в резервном копировании 


Используют 1аа5 


(ні) Ной оаа ” 


Клиенты Compute Cloud 


Cloud-native 


Stateless или state BO внешнем 
сервисе 


Используют резервирование и 
масштабирование 


Используют Раа5 


Managed services 


Balancers 


Registry 


| 
ШЫ БШ ШЕ БЕ 


Service workers 


(ні) HighLoad | 


Клиенты Compute Cloud 


ClassiclLegacy сака. <> Balancer ум 


Предполагают непрерывность 
вычислительного ресурса 


Сохраняют state внутри УМ 


Нуждаются в резервном 
копировании 


Используют 1аа5 


K8S cluster 


(ні) Ню оаа ” 


Резервные копии 


Примерно 500ТВ в сутки (15РВ в месяц +-) 500ТВ декларативных 
300 .. 350 ТВ реальных 
Рост х2 в год 


Требуется сжатие 
* не для всех эффективно 


(ні) Ной оаа | 


Резервные копии 


Аффектятся: 
* сеть 
350ТВ в течение 6 часов * ДИСКИ 


Никто не хочет 
замедления в рабочее 
время 


Все хотят бэкапы “ночью” 


(ні) Ню оаа ” 


Резервные копии 


Преаллоцированные: 
быстрые 
относительно дорогие 


Thin и Thick диски Тонкие: 


Медленнее 
Заметно более дешевые 


(ні) Ной оаа ” 


Резервные копии 


Примерно 500ТВ в сутки (15РВ в месяц +-) Локальные SSD и NVMe 
0.1 .. 0.2т$ 

350ТВ в течение 6 часов 
Сетевье 550 и МУМе 


Thin и Thick диски 0.3 .. 0.55 

Latency 0.1... 15 т5 Серп SSD 
1... 2т5 
Серп НОО 
5 .. 15т5 


(ні) Ной оаа ” 


Резервные копии 


Примерно 500ТВ в сутки (15РВ в месяц +-) (СО! 


350ТВ в течение 6 часов х виден хосту 
* использует блочный стек 
А А х 
Thin и Thick диски прЕаллоцирован 


Latency 0.1... 15 т5 Серп 
х не виден хосту 
х доступ через абстракции 
х "ТОНКИЙ" 


Ceph, iSCSI, локальные диски 


(ні) HighLoad ” 


Резервные копии 


Примерно 500ТВ в сутки (15РВ в месяц +-) 


350ТВ в течение 6 часов 
Thin и Thick диски 


Latency 0.1... 1511$ 


Серп, iSCSI, локальные диски 


ОНпе/опіїпе диски 


Offline 

х Отключеннью 

х Неизменяемые 

х Консистентные 

х Легко копировать 
х Малый overhead 


Опіїпе 

х Подключеннье 

х Изменяющиеся 

х Неконсистентные (7!) 
х Нужны снапшоты 

* Заметный overhead 


(ні) Ной оаа ” 


Уложиться в окно времени 


АТВ диск 
30МВ!сек -, -140 тысяч секунд 


Цель - 300МВ/сек — -14 тысяч секунд 


Имеющиееся решение: 15.. 50 МВ/сек 


Консистентность копии 


Offline диск: 
Диск — Резервная копия 


(ні) Ню оаа ” 


Консистентность копии 


"Однодисковая" УМ 
Диск > Снапшот — Резервная копия 


(ні) Ню оаа ” 


Консистентность копии 


"Многодисковая" УМ 
Диск 1, Диск? > Снапшот 1, Снапшот 2 -, Резервная копия 


(ні) Ной оаа ” 


Консистентность копии 


"Однодисковая" УМ 
Диск (5) Снапшот -, Резервная копия 


"Многодисковая" ММ 
Диск 1, Диск 2 (5) Снапшот 1, Снапшот 2 -, Резервная копия 


(ні) Ной оаа ” 


ОрепЗіаск backups 


Гостевая ОС 


ше" Guest agent 
har 


Гипервизор 
Мома / Сотриїе 


Драйверы резервного копирования 


Запрос з Frontend -. Manager з Driver 


ОрепзіасК Mainstream: 


Tivoli 
« Фреймворк, модель in-process driver Серп | 
* Однопоточный драйвер МЕ5 / Роѕіх Е5 
х Greenlets Gluster 
х Ужасный ПО Соодіе 
Моп-таіпѕігеат legacy драйвер: 
... есть поддержка своего 53 53(М1 / v2) 


... а еще не работает L1 


(ні) Ной оаа ” 


Фреймворк 


де? backup(self, Баскир іпіо, моїите 1п70): 
file descriptor = 5е|ї.ореп уоїите(моїите іп?о) 
Ery: 
self.driver.backup(backup_info, file дезсгтртТог) 
finally: 
ѕе1#.с1оѕе уо|ите (уо1ите іпіо, file descriptor) 


Не обязательно системный файловый дескриптор (прощай AlO) 


Один дескриптор (один указатель текущей позиции, однопоточная работа) 


Невозможно бэкапить быстрее чем читает один поток 


(ні) Ню оаа ” 


Провальная итерация 


Параллельное чтение 
e Два потока 
e Основной читает из буфера 
e Второй заполняет буфер 


15 - 50 МВ/сек .. 30... 70 МВ/сек 


Укорение х2 


Делайте вещи проще 
... НО не проще, чем они есть на самом деле 


import zlib 
import sys 


with open(sys.argv[1], "rb") as f: 
cm = zlib.compressobj(-1, zlib.DEFLATED) 


while True: 
d = f.read(524288) 
if пот 4: 
break 


ст. compress (4) 


Device: ггдт/5 мгат/5 r/s w/s wkB/s аудга-57 аудди-52 await г await w await svctm %util 
sdj 0.00 0.00 648.00 0.00 0.00 0.64 0.99 0.99 0.00 0.54 34.90 
sdj 0.00 0.00 684.00 0.00 0.00 0.64 0.94 0.94 0.00 0.51 35.00 
sdj 0.00 0.00 672.00 0.00 0.00 0.65 0.98 0.98 0.00 0.52 35.10 
sdj 0.00 0.00 676.00 0.00 0.00 0.63 0.93 0.93 0.00 0.50 33.60 
sdj 0.00 0.00 700.00 0.00 0.00 0.68 0.97 0.97 0.00 0.53 36.80 
sdj 0.00 0.00 684.00 0.00 0.00 0.64 0.93 0.93 0.00 0.51 34.60 
sdj 0.00 0.00 712.00 0.00 0.00 0.65 0.92 0.92 0.00 0.50 35.50 


/sys/block/sdj/queue/read_ahead kb 


Только |/О 


ітрогі 5у5 


with ореп(зу5.агам|1|, "гр") аз f: 
ст = 2116.сотргеѕѕ060ј (-1, 2115.ОЕРГАТЕО) 
while True: 
d = f.read(524288) 


ії пот d: 

Бгеак 
Оем1се: ггат/5 | мгдт/5 г/5 м/5 ГКВ/5 мКВ/5 амдг4-52 аудди-52 await г await м await 
54) 9.00 9.00 2304.00 0.06] 294912.00 0.00 256.00 1.81 9.79 0.79 0.00 
59) 0.00 0.00 2275.00 0.06] 291200.00 0.00 256.00 1.80 0.79 0.79 0.00 
54) 9.00 0.00 2328.00 0.06] 297984.00 0.00 256.00 1.78 0.77 0.77 0.00 
54) 9.00 0.00 2270.00 0.06] 290560.00 0.00 256.00 1.79 0.79 0.79 0.00 
54) 9.00 0.00 2297.00 0.06] 294016.00 0.00 256.00 1.79 0.78 0.78 0.00 
54) 9.00 9.00 2198.00 0.06] 281344.00 0.00 256.00 1.76 9.80 0.80 0.00 
59) 0.00 0.00 2205.00 0.06] 282240.00 0.00 256.00 1.73 0.78 0.78 0.00 


Менять алгоритм сжатия? 


svctm 


©) © © со Оо Ооо; 


‚43 
‚44 
‚43 
44 
‚43 
.45 
.44 


%util 


99. 
99. 
99. 
98. 
99. 
98. 
96. 


40 
30 
60 
90 
40 
40 
80 


Другой алгоритм сжатия 


Мопе (Кеаа) ZLIB LZ4 


~290 MB/s ~85 MB/s ~240 MB/s 


(ні) Ной оаа ” 


Что можно сделать с |/О 


ітрогі 5у5 ітрогі 5у5 
with ореп(5у$.агду[1], "гр") аз f: with ореп(зуз.агам| 11, "гЬ") аз f: 
ст = 2116.сотргеѕѕ060ј (-1, 2115.ОЕРГАТЕО) ст + 2116.сотрге$$05] (-1, 2115.ОЕРГАТЕО) 
while True: while True: 
d = f.read(524288) d = f.read(524288 * 8) 
ії пот d: if not d: 
break break 
Device: ггат/5 wrqm/s г/5 м/5 ГКВ/5 мКВ/5 амдга-52 амдди-52 амаії г await м await svctm %util 
59) 0.00 0.00 2304.00 0.00] 294912.00 0.00 256.00 1.81 0. 79 0.79 0.00 0.43 99.40 
59) 0.00 0.00 2275.00 0.00] 291200.00 0.00 256.00 1.80 9.79 9.79 9.00 0.44 99.30 
59) 0.00 0.00 2328.00 0.00] 297984.00 0.00 256.00 1.78 0.77 0.77 0.00 0.43 99.60 
Оем1се: ггдт/5 |  мгдт/5 г/5 м/5 ГКВ/5 мКВ/5 амдга-52 амдди-52 await г await м await svctm %util 
sdj 0.00 0.00 2313.00 0.00 296064. 00 0.00 256.00 1.81 0.78 0.78 0.00 0.43 99.10 
sdj 0.00 0.00 2269.00 0.00 290432. 00 0.00 256.00 1.81 0.80 0.80 0.00 0.44 99.80 
sdj 0.00 0.00 2215.00 0.00] 283520. 00 0.00 256.00 1.79 0.81 0.81 0.00 0.44 98.10 


(ні) Ню оаа | 


ітрогі 5у5 


with ореп(5у5 .агдм (1), 
211). сотрге550оБ1 (-1, 


ст = 


Что можно сделать с |/О 


while True: 
+. read (524288) 


а = 

ії пот 4: 

Бгеак 
Оем1се: ггат/5 
59) 0.00 
59) 0.00 
59) 0.00 
Device: ггат/5 
54) 9.00 
54) 9.00 
54) 0.00 
Device: ггат/5 
59) 0.00 
54) 9.00 
54) 9.00 
54) 0.00 
54) 9.00 


мгат/5 
0.00 
0.00 
0.00 


г/5 
2304.00 
2275.00 
2328.00 


мгат/5 
0.00 
0.00 
0.00 


г/5 
2313.00 
2269.00 
2215.00 


dd if=/dev/sdj of=/dev/null iflag=direct р5-4096К 


г/5 
1118.00 
1085.00 
1103.00 
1128.00 
1153.00 


мгат/5 
0.00 
0.00 
0.00 
0.00 
0.00 


"ro" ав f: 
zlib.DEFLATED) 


м/5 гКВ/5 
0.00] 294912.00 
0.00] 291200.00 
0.00] 297984.00 


м/5 гКВ/5 
0.00 296064. 00 
0.00] 290432.00 
0.00] 283520.00 


м/5 ГКВ/5 
0.00] 572416.00 
0.00] 555520.00 
0.00] 564736.00 
0.00] 577536.00 
0.00 590336.00 


import sys 


with open(sys.argv[1], "гЬ") as f: 
zlib.DEFLATED) 


cm = 


if not d: 
break 


wkB/s avgrq-sz avgqu-sz 


0.00 256.00 1.81 
0.00 256.00 1.80 
0.00 256.00 1.78 
wkB/s avgrq-sz avgqu-sz 
0.00 256.00 1.81 
0.00 256.00 1.81 
0.00 256.00 1.79 


wkB/s avgrq-sz avgqu-sz 
5; 


0.00 1024.00 29 
0.00 1024.00 4.88 
0.00 1024.00 5. 10 
0.00 1024.00 5.35 
0.00 1024.00 4.88 


2115. сотрге550оБ1 (-1, 
while True: 


d = f.read(524288 * 8) 


await r_await w await 
0.79 0.79 0.00 
0.79 0.79 0.00 
0.77 0.77 0.00 
await г амаії м await 
0.78 0.78 0.00 
0.80 0.80 0.00 
0.81 0.81 0.00 


await r_await w await 


4.73 
4.49 
4.64 
4.75 
4.24 


4.73 
4.49 
4.64 
4.75 
4.24 


0.00 
0.00 
0.00 
0.00 
0.00 


svctm 
0.43 
0.44 
0.43 


svctm 
0.43 
0.44 
0.44 


svctm 
0.88 
0.90 
0.88 
0.87 
0.84 


%util 


99.40 
99.30 
99.60 


%util 


99.10 
99.80 
98.10 


%util 


97.90 
97.50 
97.20 
97.70 
97.40 


Промежуточные результаты 


Мопе 
(Веаа) 


Default 290 MB/s 85 MB/s  -240 MB/s 
Direct ГО 682 MB/s 94 MB/s -370 MB/s 


ZLIB 24 


Замена алгоритма закрывает проблемы 
резервного копирования дисков с малым 
ѕегмісе ите. 


Что делать с дисками с большим service time? 


(ні) Ной оаа ” 


Промежуточные результаты 


Операция Время на 1GB, секунд 
Read (default) 35 
Read (Direct I/O) 1.5 
Compression (GZIP) 8 
Compression (LZ4) 1 
Ceph HDD Read 30 (30 MB/s) 
Ceph SSD Read 5 (200MB/s) 


(ні) Ню оаа ” 


Новая архитектура 


Делегирование драйверу доступа к диску 
Многопроцессная и многопоточная реализация 
РОЅІХ ѕһагеа тетогу 
Новый формат 


Многопоточное сжатие 


(ні) Ной оаа ” 


Сломать фреймворк 


феї БасКир(зе| +, backup info, volume info): def backup(self, backup info, volume info): 
file descriptor = self.open volume(volume info) if self.driver.version() >= 2: 
try: source = volume_info 
self.driver.backup(backup_info, file _ descriptor) else: 


finally: | source = 5еїї.ореп уо|ите (уо|ите јпѓо) 


ѕе1#.с1оѕе моите (мо|ите іпіо, Ее дезсгтртТог) 


try: 
self.backup(backup_info, source) 
finally: 
ії self.driver.version() < 2: 
self.close_ уоїите(моїтите info, source) 


(ні) Ню оаа ” 


Многопроцессная архитектура 


ѕеѕѕіоп адеп! 
е. Agent 1 
e Agent 2 


- Agent М 


Payload 


Agent 


List of Payload 


“size”: 4096 


сле = —— 


“offset 
“offset 
“offset 
“offset 


": 0, “size”: 1024" |, 

”: 1024, “size”: 1024” |, 
": 2048, “size”: 1024" |, 
": 3072, “size”: 1024" | 


(ні) Ной оаа ” 


Многопроцессная архитектура 


Васкир 

e Master 

- Reader 

e Checksum 

• DiffHandler 

• Compressor 

e DataWriter 

• MetadataWriter 


(ні) Ню оаа ” 


Многопроцессная архитектура 


Restore 
e Master 
• BackupReader 
e Decompressor 
• Writer 


(ні) Ной оаа ” 


Многопроцессная архитектура 


Delete 
• S3Worker 


(ні) Ной оаа ” 


Лего-сору между агентами 


POSIX РС shared memory 


Backup master 

{ “offset”: 0, “size”: 4096} 
Data reader 

{ “offset”: 0, “size”: 4096, “shm_id”: “reader 12345 1") 
Checksum 


{ “offset”: 0, “size”: 4096, 
“shm_id”: “геайег_12345_1”, 
“hash”: “abc1234567890def” } 


Compressor 


{ “offset”: 0, “size”: 4096, 
“shm_id”: “cmpt_12345_1”, 


“hash”: “арс12345678904е? | (ні) На са d ++ 


{ “offset” 
{ “offset” 
{ “offset” 


{ “offset” 


Асинхронный процессинг 


: 0, “size”: 1024 ор | 
} — 1 {“ойї$еї”: 0, “size”: 1024, “shm_id”: “d1” | 


: 1024, “size”: 1024} — | - 
: 2048, “size”: 1024} ---- . . 
_ | {“offset”: 2048, “size”: 1024, “shm_id”: “92” | 


: 3072, “size”: 1024 ---- | | 
} |. {“^ой$еї”: 3072, “size”: 1024, “shm_id”: “d3” | 


{ “offset”: 1024, “size”: 1024, “shm_id”: "44" | 


Дает очень существенный прирост для тонких волюмов ... 


Если data consumer успеет обработать “сгенерированные” данные 


Поддержка инкрементальных копий 


{ “offset”: 0, “size”: 1024 ) 
{} 
{ “offset”: 1024, “size”: 1024 ) 
{ “offset”: 1024, “size”: 1024, “object_offset”: 40, “сотргеѕѕеа іле”: 1024 | 
{ “offset”: 2048, “size”: 1024 ) 
{} 
{ “offset”: 3072, “size”: 1024 } 
{ “offset”: 3072, “size”: 1024, “object_offset”: 0, “compressed_size”: 40 } 


{ “offset” 
{ “offset” 
{ “offset” 


{ “offset” 


Изменение формата 


: 0, “size”: 1024, “орјесі ойзег’: 32, “сотргеѕѕеа з12е": 128 | 
: 1024, “size”: 1024, “орјесі ойвег: 200, “сотргеѕѕеа 5іге": 1024 | 
: 2048, “size”: 1024, “орјесі ойзег: 0, “сотргеззед 5і7е": 32 | 


: 3072, “size”: 1024, “object_offset”: 160, “сотргеѕѕеа 5і7е": 40 | 


(ні) Ню оаа “ 


“Сборка мусора" 


| “offset”: 0, “size”: 4096", 
“ѕһт іа”: “геадег 12345 1" | 
Іп resources: 
| e shm: reader_12345 _1 
{ “offset”: 0, “size”: 1024”, Out | 
“сотргеззед 5126”: 512, ut гезоигсев. 
“вит ід": "стрі 12345 1" e shm: стрі 12345 1 
), e shm: стрі 12345 2 
{ “offset”: 1024, “size”: 1024”, 
оо Resources to Нее: 
} й T T e shm: геадег 12345 1 


(ні) Ню оаа ” 


“Сборка мусора" 


{ “offset”: 0, “size”: 4096", 
“ѕһт іа”: “геадег 12345 1" | 


[ 
| “offset”: 0, “size”: 1024”, 
“сотргеззед 5126”: 512, 
“врт іа”: “геадег 12345 1" 


), 

| “offset”: 1024, “size”: 1024”, 
“сотргеззед 517": 512, 
“ат іа”: “стр 12345 2" 

) 


Іп resources: 
e shm: геадег 12345 1 


ОШ геѕоигсеѕ: 
e shm: геадег 12345 1 
e shm: стрі 12345 2 


Nothing to free 


(ні) Ню оаа ” 


“Сборка мусора" 


де? handle теззаде(5е |, input, output, resource manager): 
shm = resource тападег. сгеате 5зПт( 4096) 


output .append(Payload(shm_id=shm. id) ) 


Запрос ресурсов через менеджер? 


e Ресурсы учетены 

e Будут освобождены 

e Могут быть переиспользованы 

e Можно переделать механизм аллокации 


(ні) Ню оаа ” 


Как можно меньше зависимостей 


e POSIX РС shared memory 

e UNIX domain socket 

e JSON 

e Сложнье зависимости вынесены в отдельные агенты 


Результат: 


Возможность протестировать работу бзкапа без 
развертывания дополнительных сервисов — используется 
при проверке инфраструктуры 


Или бэкапить не только Орепаск 


(ні) HighLoad ” 


Новые характеристики 


До 1.5СВ/секунду на один диск 
Поддержка 11 

40СВ/сек виртуального пространства 
-18СВісек использованного пространства 
Цена: большой расход памяти: 

1СВЛВ контрольные суммы 


2СВПВ метаданные 
2СВПВ сериализация 


(ні) Ной оаа ” 


Загрузка сети 


C10 = 18 т / 5.6 оці 
С19 = 25 іп / 4.8 оиї 
С24 = 30 т / 4.8 оиї 
C25 = 25 т [5.3 out 
C26 = 20 т / 7.9 out 
С27 = 25 т [5.8 оці 


Итого 


143 ОБ/5 чтение 
34 Gb/s запись 


(ні) Ню оаа ” 


Заметные доработки 


Прямой доступ к снапшотам 
Механизмы шедулинга с учетом зон доступности 


Отказ от шедулинга “восстановление через тот же хост” 


(ні) Ной оаа ” 


Интересные факты 


Почти все отказы вызваны отказом системы чьи 
диски копируют (Сиеѕї Адеп!) 


Единичные сбои вызваны отказами инфраструктуры 
или оборудования 


Сбоев собственно разработанного драйвера после 
запуска в эксплуатацию почти не отмечалось 


Объем тестирующего кода - в 2 раза больше чем 
объем кода драйвера 


(ні) Ной оаа ” 


Вместо заключения 


Стандартные механизмы ГО могут заметно снизить 
производительность на “однонаправленых” нагрузках (-100% 
запись или -100% чтение) 


Фреймворковый подход может накладывать ограничения и 
обходить их будет “больно” - но это существенно выгоднее, чем 
втискиваться в них 


Высокопроизводительные решения требуют распараллеливания 


нагрузки. Распараллеливание требует соответствующих 
форматов данных. 


(ні) Ной оаа ” 


